Световни новини без цензура!
„Треската за злато“ на AI за данни за обучение на чатбот може да изчерпи текст, написан от хора
Снимка: apnews.com
AP News | 2024-06-06 | 16:40:21

„Треската за злато“ на AI за данни за обучение на чатбот може да изчерпи текст, написан от хора

Системите за изкуствен интелект като ChatGPT може скоро да изчерпят това, което ги прави по-умни – десетките трилиони думи, които хората са написали и споделили онлайн.

Ново изследване, оповестено в четвъртък от изследователската група Epoch AI, планува, че софтуерните компании ще изчерпят предлагането на обществено налични данни за образование за езикови модели на AI почти до началото на десетилетието - някъде сред 2026 и 2032 година.

Сравнявайки го с „ дословна тресчица за злато “, която изчерпва лимитираните естествени запаси, Тамай Бесироглу, създател на проучването, сподели, че региона на изкуствения разсъдък може да се сблъска с провокации при поддържането на настоящия си ритъм на прогрес, откакто изтощи ресурси от писане, генерирано от индивида.

В кратковременен проект софтуерни компании като основателя на ChatGPT OpenAI и Гугъл се надпреварват да обезпечат и от време на време да заплащат за висококачествени източници на данни, с цел да обучат своите огромни езикови модели на ИИ – за да вземем за пример посредством сключване на покупко-продажби, с цел да се включите в непрекъснатия поток от фрази, излизащи от форумите на Reddit и новинарските медии.

В по-дългосрочен проект няма да има задоволително нови блогове, новинарски публикации и мнения в обществените медии, които да поддържат актуалната траектория на развиване на ИИ, оказвайки напън върху фирмите да се допрян до чувствителни данни, които в този момент се смятат за частни – като имейли или текстови известия съобщения — или разчитане на по-малко надеждни „ синтетични данни “, изплюти от самите чатботове.

„ Тук има съществено усложнение “, сподели Бесироглу. „ Ако започнете да се справяте с тези ограничавания за това какъв брой данни имате, към този момент не можете в действителност да мащабирате дейно моделите си. И увеличението на моделите е може би най-важният метод за разширение на техните благоприятни условия и възстановяване на качеството на тяхната продукция. “

Изследователите за първи път направиха своите прогнози преди две години — малко преди дебюта на ChatGPT — в работен документ, който предвижда по-неизбежно спиране на висококачествени текстови данни през 2026 година Много неща се трансформираха от този момент, в това число нови техники, които разрешиха на откривателите на ИИ да употребяват по-добре данните, които към този момент имат, и от време на време да „ претренират “ неведнъж едни и същи източници.

Но има ограничавания и след по-нататъшно изследване Epoch в този момент планува привършване на обществените текстови данни някъде през идващите две до осем години.

Последното изследване на екипа е рецензирано и би трябвало да бъде показано на Международната конференция за машинно образование това лято във Виена, Австрия. Epoch е институт с нестопанска цел, хостван от основаната в Сан Франциско Rethink Priorities и финансиран от последователи на ефикасния алтруизъм – филантропско придвижване, което е наляло пари в намаляване на най-лошите опасности на AI.

Бесироглу сподели, че откривателите на AI са осъзнали повече от преди десетилетие, че агресивното разширение на две основни съставки - изчислителна мощ и големи магазини от интернет данни - може доста да усъвършенства продуктивността на системите с изкуствен интелект.

Количеството текстови данни, подавани в езиковите модели на изкуствен интелект, нараства с към 2,5 пъти годишно, до момента в който компютрите са нарастнали към 4 пъти годишно, съгласно изследването на Epoch. Компанията майка на Фейсбук Meta Platforms неотдавна съобщи, че най-голямата версия на техния иден модел Llama 3 — която към момента не е пусната — е подготвена на до 15 трилиона токена, всеки от които може да съставлява част от дума.

Но до каква степен си коства да се притеснявате за пречките в данните е противоречиво.

„ Мисля, че е значимо да имаме поради, че не е наложително да образоваме все по-големи и по-големи модели “, сподели Николас Папернот, помощник по компютърно инженерство в Университета на Торонто и откривател в нестопанска организация Vector Institute for Artificial Intelligence.

Papernot, който не е взел участие в изследването на Epoch, сподели, че построяването на по-квалифицирани AI системи може да пристигна и от модели за образование, които са по-специализирани за съответни задания. Но той има терзания по отношение на образованието на генеративни AI системи за същите резултати, които създават, което води до влошена продуктивност, известна като „ колапс на модела “.

Обучението върху генерирани от AI данни е „ като това, което се случва, когато копирате лист хартия и по-късно фотокопирате фотокопието. Губите част от информацията “, сподели Папернот. Не единствено това, само че проучването на Papernot също откри, че може в допълнение да кодира грешките, пристрастията и несправедливостта, които към този момент са вградени в осведомителната екосистема.

Ако същинските основани от индивида фрази остават сериозен източник на данни за ИИ, тези, които са стопани на най-търсените съкровища – уеб страници като Reddit и Wikipedia, както и издатели на вести и книги – са били принудени да помислят добре по какъв начин те се употребяват.

„ Може би не отрязвате върховете на всяка планина “, майтапи се Селена Декелман, основен продуктов и софтуерен шеф във фондация Wikimedia, която ръководи Wikipedia. „ В момента е забавен проблем, когато водим диалози за естествени запаси по отношение на данни, основани от индивида. Не би трябвало да се дръзвам на това, само че в действителност го намирам за необикновено. “

Въпреки че някои се пробваха да затворят данните си от образованието с изкуствен интелект – постоянно откакто към този момент са били взети без отплата – Wikipedia сложи няколко ограничавания за метода, по който фирмите с изкуствен интелект употребяват записите, написани от доброволци. Все отново Декелман сподели, че се надява да продължи да има тласъци за хората да продължат да способстват, изключително откакто поток от на ниска цена и автоматизирано генерирано „ отпадък наличие “ стартира да замърсява интернет.

Компаниите с изкуствен интелект би трябвало да бъдат „ загрижени за това по какъв начин генерираното от индивида наличие продължава да съществува и продължава да бъде налично “, сподели тя.

От позиция на разработчиците на AI, изследването на Epoch споделя, че заплащането на милиони хора за генериране на текста, от който моделите на AI ще се нуждаят, „ е малко евентуално да бъде пестелив метод “ за стимулиране на по-добра техническа продуктивност.

p> Докато OpenAI стартира работа по образованието на идващото потомство на своите GPT огромни езикови модели, основният изпълнителен шеф Сам Алтман сподели на публиката на събитие на Организация на обединените нации предишния месец, че компанията към този момент е опитала с „ генериране на доста синтетични данни “ за образование.

„ Мисля, че това, от което се нуждаете, са висококачествени данни. Има синтетични данни с ниско качество. Има данни за хора с ниско качество “, сподели Алтман. Но той също по този начин изрази запаси по отношение на разчитането прекалено много на синтетични данни пред други механически способи за възстановяване на AI моделите.

„ Ще има нещо доста необичайно, в случай че най-хубавият метод за образование на модел е просто да генерирате, като, квадрилион токени синтетични данни и да ги подадете назад “, сподели Алтман. „ Това някак си наподобява неефективно. “

——————

Асошиейтед прес и OpenAI имат лицензионно и софтуерно съглашение, което разрешава на OpenAI достъп до част от текстовите архиви на AP.

Източник: apnews.com


Свързани новини

Коментари

Топ новини

WorldNews

© Всички права запазени!